Розподіл частих слів у коротких текстових повідомленнях

Автор(и)

DOI:

https://doi.org/10.24144/2616-7700.2024.45(2).115-125

Ключові слова:

розподіл частот слів, математична лінгвістика, критерій хі-квадрат, критерій AIC, критерій BIC

Анотація

Розглядається задача про розподіл частот слів у текстовому корпусі, що складається з коротких повідомлень (акцент зроблено на частих словах). Серед декількох сімей розподілів знайдені найбільш адекватні (використовувався критерій хі-квадрат, а також порівняння за допомогою статистик AIC та BIC).

Біографії авторів

Є. В. Турчин, Дніпровський національний університет імені Олеся Гончара

Доцент кафедри статистики й теорії ймовірностей. Кандидат фізико-математичних наук, доцент

Ю. С. Федорченко, Дніпровський національний університет імені Олеся Гончара

Студент 4-го курсу механiко-математичного факультету

Посилання

  1. Tagg, C. (2009). A corpus linguistics study of SMS text messaging [PhD Thesis, University of Birmingham]. Retrieved from https://etheses.bham.ac.uk/id/eprint/253/
  2. Ni, X., Quan, X., Lu, Z., Wenyin, L., & Hua, B. (2011). Short text clustering by finding core terms. Knowledge and Information Systems, 27(3), 345–365. https://doi.org/10.1007/s10115-010-0299-7
  3. Rafeeque, P. C., & Sendhilkumar, S. (2011). A survey on short text analysis in web. 2011 Third International Conference on Advanced Computing. Retrieved from https://ieeexplore.ieee.org/abstract/document/6165203/
  4. Brocardo, M. L., Traore, I., Saad, S., & Woungang, I. (2013). Authorship verification for short messages using stylometry. 2013 International Conference on Computer, Information and Telecommunication Systems (CITS). https://doi.org/10.1109/CITS.2013.6705711
  5. Lyddy, F., Farina, F., Hanney, J., Farrell, L., & O’Neill, N. K. (2014). An analysis of language in university students’ text messages. Journal of Computer-Mediated Communication, 19(3), 546–561. Retrieved from https://academic.oup.com/jcmc/article-abstract/19/3/546/4067601
  6. Xu, J., Xu, B., Wang, P., Zheng, S., Tian, G., Zhao, J., & Xu, B. (2017). Selftaught convolutional neural networks for short text clustering. Neural Networks, 88, 22–31. https://doi.org/10.1016/j.neunet.2016.12.008
  7. Zheng, C. T., Liu, C., & Wong, H. S. (2018). Corpus-based topic diffusion for short text clustering. Neurocomputing, 275, 2444–2458. https://doi.org/10.1016/j.neucom.2017.11.019
  8. Sjarif, N. N. A., Azmi, N. F. M., Chuprat, S., Sarkan, H. M., Yahya, Y., & Sam, S. M. (2019). SMS spam message detection using term frequency-inverse document frequency and random forest algorithm. Procedia Computer Science, 161, 509–515. Retrieved from https://www.sciencedirect.com/science/article/pii/S1877050919318617
  9. Srinivasan, L., & Nalini, C. (2019). An improved framework for authorship identification in online messages. Cluster Computing, 22(S5), 12101–12110. https://doi.org/10.1007/s10586-017-1563-3
  10. Albalawi, R., Yeap, T. H., & Benyoucef, M. (2020). Using topic modeling methods for shorttext data: A comparative analysis. Frontiers in Artificial Intelligence, 3, 42. Retrieved from https://www.frontiersin.org/articles/10.3389/frai.2020.00042/full
  11. Qiang, J., Qian, Z., Li, Y., Yuan, Y., & Wu, X. (2020). Short text topic modeling techniques, applications, and performance: a survey. IEEE Transactions on Knowledge and Data Engineering, 34(3), 1427–1445. Retrieved from https://ieeexplore.ieee.org/abstract/document/9086136/
  12. mshenoda/spam-messages ‧ Datasets at Hugging Face. Retrieved from https://huggingface.co/datasets/mshenoda/spam-messages
  13. Johnson, N. L., Kemp, A. W., & Kotz, S. (2005). Univariate Discrete Distributions. Hoboken, N.J.: Wiley.
  14. Bulmer, M. G. (1974). On fitting the Poisson lognormal distribution to species-abundance data. Biometrics, 30(1), 101. https://doi.org/10.2307/2529621
  15. Nakagawa, T., & Osaki, S. (1975). The discrete weibull distribution. IEEE Transactions on Reliability, R-24(5), 300–301. https://doi.org/10.1109/TR.1975.5214915
  16. Delignette-Muller, M. L., & Dutang, C. (2015). fitdistrplus: An R package for fitting distributions. Journal of Statistical Software, 64(4), 1–34. https://doi.org/10.18637/jss.v064.i04
  17. DiscreteWeibull: Discrete Weibull Distributions (Type 1 and 3). Retrieved from https://cran.r-project.org/web/packages/DiscreteWeibull/index.html
  18. Feinerer I., & Hornik K. (2024). tm: Text Mining Package. R package version 0.7-13. Retrieved from https://CRAN.R-project.org/package=tm
  19. gamlss.dist: Distributions for Generalized Additive Models for Location Scale and Shape. Retrieved from https://cran.r-project.org/package=gamlss.dist
  20. Prado P., Dantas Miranda M., & Chalom A. sads: Maximum Likelihood Models for Species Abundance Distributions. Retrieved from https://CRAN.R-project.org/package=sads

##submission.downloads##

Опубліковано

2024-11-21

Як цитувати

Турчин, Є. В., & Федорченко, Ю. С. (2024). Розподіл частих слів у коротких текстових повідомленнях. Науковий вісник Ужгородського університету. Серія «Математика і інформатика», 45(2), 115–125. https://doi.org/10.24144/2616-7700.2024.45(2).115-125

Номер

Розділ

Математика та статистика